Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота.
В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи.
По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как μFCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, F-мера (гармоническое среднее значение точности и полноты) для векторов признаков μFCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.
Представлено сравнение дискретных скрытых марковских моделей и свёрточных нейронных сетей для классификации изображений. После разбивки изображений на части целесообразно получить векторы, которые представляют локальные визуальные структуры, одновременно определяющие изображения глобально через пространственную последовательность. С использованием методов кластеризации создается алфавит из указанных векторов, а затем конструируются последовательности символов, которые описывают статистические модели, соответствующие классам изображений. Скрытые марковские модели в сочетании с методами квантования могут обрабатывать шум и искажения в наблюдениях для решения проблем компьютерного зрения, таких как классификация изображений с изменением освещения и перспективы.
Протестированы архитектуры, основанные на трех, шести и девяти скрытых состояниях, в пользу скорости обнаружения и низкого использования памяти. Также были протестированы два типа ансамблевых моделей. Точность предлагаемого метода была оценена с помощью общедоступных данных; полученные результаты оказались сравнимы с известными оценками при использовании тонко настроенных свёрточных нейронных сетей, но требовали значительно меньших вычислительных ресурсов. Результат представляет интерес при разработке мобильных роботов с вычислительными устройствами, имеющими ограниченное время автономной работы, но требующими способности обнаруживать и добавлять новые объекты в свои системы классификации.
Используя алгоритмы вычислительной топологии, рассмотрены методы сравнения изображений объектов, которые представлены множествами точек. Предложены алгоритмы построения множеств вещественных баркодов для сравнения изображений объектов. Нахождение баркодов форм объектов позволяет изучать как непрерывные, так и дискретные структуры, что делает их использование полезным в вычислительной топологии. Отличительной особенностью использования предложенных методов сравнения по отношению к методам алгебраической топологии является получение большего количества информации о форме объекта. Важным направлением применения вещественных баркодов является изучение инвариантов больших объемов данных. Предлагается метод, который объединяет технологии построения баркодов с внедренной негеометрической информацией (цвет, момент времени формирования, давление пера), представленной в виде функций от симплициальных комплексов. Для этого баркоды расширяются функциями от симплексов для представления разнородной информации. Представленная структура расширенных баркодов повышает эффективность методов персистентных гомологий при сравнении изображений и распознавании образов. Предложена модификация метода Вассерштейна для нахождения расстояния между изображениями путем введения негеометрической информации о расстояниях между изображениями, обусловленной неравенствами функций исходного и терминального изображений соответствующих симплексов. Геометрические характеристики объекта могут изменяться при диффеоморфных деформациях; предложенные алгоритмы формирования расширенных баркодов изображений являются инвариантными к преобразованиям вращения и переноса. Рассмотрен метод определения расстояния между множествами точек, представляющими кривые, с учетом ориентации отрезков кривых. В работе используются понятия алгебраической и вычислительной топологии, теории лиевых групп, диффеоморфных преобразований.
В работе представлены результаты исследований комбинаторно-метрического алгоритма распознавания многомерных групповых точечных объектов (ГТО) в пространстве признаков, имеющих иерархическую организацию. На примере многоуровневых описаний смоделированных и реальных объектов исследован характер изменения показателей достоверности в условиях, когда результаты распознавания, полученные на одном уровне иерархии, используются в качестве исходных данных на следующем. Рассмотрены предпосылки представления распознаваемых объектов или процессов в виде ГТО и источники иерархии. Так, результаты измерений n -мерного процесса в m временных сечениях или в одном сечении, но m независимыми наблюдателями представляются при распознавании n -мерным m -элементным ГТО. В случае распознавания протяженных в пространстве объектов — априорная неопределенность относительно ракурса представления, неполноты состава и координатных шумов элементов обуславливают комбинаторные процедуры количественной оценки меры близости многомерных ГТО, представляющих объект распознавания тому или иному классу. Устойчивость представленного комбинаторно-метрического алгоритма распознавания ГТО достигается возможностью смены стратегии принятия классификационного решения, использующей априорные показатели распознавания на низших уровнях иерархии. В численных экспериментах проводилась классификация геометрии ГТО, представляющего образец, по составу элементов образца или по комплексному априорному показателю достоверности. Для повышения вероятности правильного распознавания предложено использовать перебор результатов распознавания на нижних уровнях иерархии, характеризующихся более низкими априорными показателями достоверности распознавания по первичным признакам. Благодаря использованию процедур поиска комбинаций индексов в окрестности максимума апостериорной вероятности правильного распознавания на нижних уровнях доставляется экстремальное значение критерию качества функционирования системы распознавания на ее верхнем уровне иерархии. Приведены экспериментальные зависимости априорных и апостериорных показателей достоверности при различных условиях проведения измерений и состояний объектов распознавания.
В настоящей работе предлагается подход к обнаружению широкого класса визуальных контаминантов на основе вычисления перцептивных хэшей и формирования эталонной базы данных потенциально опасных мультимедийных объектов для построения автоматической системы защиты потребителей мультимедийного контента от нежелательного воздействия на их психику и сознание.
Рассматриваются нейросетевые модели и логико-предметные методы описания, анализа и распознавания сложных образов. Предложены алгоритмы решения задач идентификации и классификации простых образов (например, изображений объектов) и логического анализа и нейросетевого распознавания сложных образов (например, сложных 3D-сцен по 2D-изображениям частично заслоненных объектов). Дан сравнительный анализ сложности алгоритмов и описаны результаты вычислительных экспериментов.
1 - 6 из 6 результатов